2 research outputs found
Recherche d'information dans les documents XML : prise en compte des liens pour la sélection d'éléments pertinents
156 p. : ill. ; 30 cmNotre travail se situe dans le contexte de la recherche d'information (RI), plus particuliĂšrement la recherche d'information dans des documents semi structurĂ©s de type XML. L'exploitation efficace des documents XML disponibles doit prendre en compte la dimension structurelle. Cette dimension a conduit Ă l'Ă©mergence de nouveaux dĂ©fis dans le domaine de la RI. Contrairement aux approches classiques de RI qui mettent l'accent sur la recherche des contenus non structurĂ©s, la RI XML combine Ă la fois des informations textuelles et structurelles pour effectuer diffĂ©rentes tĂąches de recherche. Plusieurs approches exploitant les types d'Ă©vidence ont Ă©tĂ© proposĂ©es et sont principalement basĂ©es sur les modĂšles classiques de RI, adaptĂ©es Ă des documents XML. La structure XML a Ă©tĂ© utilisĂ©e pour fournir un accĂšs ciblĂ© aux documents, en retournant des composants de document (par exemple, sections, paragraphes, etc.), au lieu de retourner tout un document en rĂ©ponse une requĂȘte de l'utilisateur.
En RI traditionnelle, la mesure de similaritĂ© est gĂ©nĂ©ralement basĂ©e sur l'information textuelle. Elle permetle classement des documents en fonction de leur degrĂ© de pertinence en utilisant des mesures comme:" similitude terme " ou " probabilitĂ© terme ". Cependant, d'autres sources d'Ă©vidence peuvent ĂȘtre considĂ©rĂ©es pour rechercher des informations pertinentes dans les documents. Par exemple, les liens hypertextes ont Ă©tĂ© largement exploitĂ©s dans le cadre de la RI sur le Web.MalgrĂ© leur popularitĂ© dans le contexte du Web, peud'approchesexploitant cette source d'Ă©vidence ont Ă©tĂ© proposĂ©es dans le contexte de la RI XML.
Le but de notre travail est de proposer des approches pour l'utilisation de liens comme une source d'évidencedans le cadre de la recherche d'information XML. Cette thÚse vise à apporter des réponses aux questions de recherche suivantes :
1. Peut-on considérer les liens comme une source d'évidence dans le contexte de la RIXML?
2. Est-ce que l'utilisation de certains algorithmes d'analyse de liensdans le contexte de la RI XML améliore la qualité des résultats, en particulier dans le cas de la collection Wikipedia?
3. Quels types de liens peuvent ĂȘtre utilisĂ©s pour amĂ©liorer le mieux la pertinence des rĂ©sultats de recherche?
4. Comment calculer le score lien des différents éléments retournés comme résultats de recherche? Doit-on considérer lesliens de type "document-document" ou plus précisément les liens de type "élément-élément"? Quel est le poids des liens de navigation par rapport aux liens hiérarchiques?
5. Quel est l'impact d'utilisation de liens dans le contexte global ou local?
6. Comment intégrer le score lien dans le calcul du score final des éléments XML retournés?
7. Quel est l'impact de la qualité des premiers résultats sur le comportement des formules proposées?
Pour répondre à ces questions, nous avons mené une étude statistique, sur les résultats de recherche retournés par le systÚme de recherche d'information"DALIAN", qui a clairement montré que les liens représentent un signe de pertinence des éléments dans le contexte de la RI XML, et cecien utilisant la collection de test fournie par INEX. Aussi, nous avons implémenté trois algorithmes d'analyse des liens (Pagerank, HITS et SALSA) qui nous ont permis de réaliser une étude comparative montrant que les approches "query-dependent" sont les meilleures par rapport aux approches "global context" . Nous avons proposé durant cette thÚse trois formules de calcul du score lien: Le premiÚreest appelée "Topical Pagerank"; la seconde est la formule : "distance-based"; et la troisiÚme est :"weighted links based". Nous avons proposé aussi trois formules de combinaison, à savoir, la formule linéaire, la formule Dempster-Shafer et la formule fuzzy-based. Enfin, nous avons mené une série d'expérimentations. Toutes ces expérimentations ont montré que: les approches proposées ont permis d'améliorer la pertinence des résultats pour les différentes configurations testées; les approches "query-dependent" sont les meilleurescomparées aux approches global context; les approches exploitant les liens de type "élément-élément"ont obtenu de bons résultats; les formules de combinaison qui se basent sur le principe de l'incertitude pour le calcul des scores finaux des éléments XML permettent de réaliser de bonnes performance
Reformulation de requĂȘtes dans les systĂšmes de recherche d'information dans des documents XML
116 p. , ill. , 30 cmNotre travail se situe dans le contexte de la recherche dâinformation (RI), plus particuliĂšrement la recherche d'information dans des documents semi structurĂ©s de type XML. La reformulation de requĂȘtes est une phase importante dans les systĂšmes de recherche dâinformation. Elle permet en effet de rĂ©crire la requĂȘte de lâutilisateur selon les informations retrouvĂ©es par la requĂȘte initiale. De maniĂšre gĂ©nĂ©rale, ceci consiste, dans le cas notamment de la rĂ©injection de la pertinence, dâextraire Ă partir des documents jugĂ©s pertinents par lâutilisateur, les mots-clĂ©s importants puis les rajouter Ă la requĂȘte initiale. Lâobjectif de ce projet est de proposer une solution pour adapter ce processus bien connu et bien Ă©tabli dans les systĂšmes de recherche dâinformation plein texte, Ă la recherche dâinformation dans des documents XML. Lâutilisation de la technique de rĂ©injection de pertinence dans le contexte de la RI structurĂ©e nĂ©cessite la prise en charge de la dimension structurelle en plus de la dimension textuelle. Dans ce travail nous avons tentĂ© dâapporter des rĂ©ponses aux diffĂ©rentes questions posĂ©es, Ă savoir : Comment effectuer une reformulation de requĂȘtes par rĂ©injection de pertinence dans ce contexte? Comment extraire les meilleurs termes Ă partir dâunitĂ©s dâinformation jugĂ©es pertinentes et non pertinentes par lâutilisateur, sachant que ces unitĂ©s peuvent avoir des sĂ©mantiques diffĂ©rentes (ex : un paragraphe, une section, un titre), et peuvent ĂȘtre imbriquĂ©es les unes dans les autres? Quels poids doit-on assigner Ă ces diffĂ©rents termes dans ces diffĂ©rents cas de figures? Est-il opportun, par exemple, dâassigner le mĂȘme poids Ă un terme provenant dâun titre et dâune section? Comment intĂ©grer lâinformation structurelle dans la formation de la nouvelle requĂȘte ? Nos propositions concernent les catĂ©gories de stratĂ©gies : le rĂ©-ordonnancement de la liste des rĂ©sultats; et puis l'expansion de requĂȘtes. Concernant la stratĂ©gie de rĂ©-ordonnancement, nous proposons deux mĂ©thodes : le rĂ©ordonnancement contextuel et le rĂ©-ordonnancement par nom de Journal. En ce qui concerne lâexpansion de requĂȘtes, nous proposons deux mĂ©thodes : expansion par ajout de termes et expansion par ajout de contraintes structurelles. LâĂ©valuation effectuĂ©e porte sur les mĂ©thodes de rĂ©-ordonnancement appliquĂ©es sur des rĂ©sultats renvoyĂ©s par le systĂšme de recherche dâinformation XFIRM en utilisant des jugements de pertinence issus de la campagne INEX. LâĂ©valuation des formules proposĂ©es nous a permis de constater que les rĂ©sultats obtenus aprĂšs rĂ©-ordonnancement sont meilleurs que ceux de l'exĂ©cution de bas